根據企業需求,開源的內部GenAI模型將提供顯著優勢,利用企業現有基礎設施驅動部署,以在邊緣、客戶端、資料中心運作模型,或作為專屬服務。利用全新的AI微調工具,深度專業知識不再是阻礙。
生成即服務雲端執行/託管執行環境
(承前文)開發人員的另一個重要考量是執行環境,如果企業選擇專用模型,則推論執行是透過API或對雲端中,運行模型的抽象和模糊圖像的查詢呼叫(Query Calls)來完成。模型的大小和其他實作的細節並不重要,除非它們影響到可用性和某些關鍵因素。例如Token、查詢或無限運算授權(Unlimited Compute License)的成本。這種方法有時被稱為生成即服務(Generative-as-a-Service, GaaS)雲端方案,是企業使用大型專用模型的主要方式,例如GPT-4o、Gemini Ultra和Claude 3。不過,GaaS也能為較小模型提供服務,如Llama 3.2(圖7)。
在委外情報方案使用GaaS擁有顯著優勢,例如通常可以即時存取且輕易開箱即用,減輕了內部開發的負擔。另一個隱含優勢是當模型或其環境升級時,AI解決方案開發人員不需花費大量力氣或是改變設定,就能取得最新更新。此外,GaaS的成本幾乎都是營運支出(OpEx),更適合處於初始階段或有所限制的工作負載。針對早期採用和間歇性使用的情況,GaaS可提供更多支援。
相對而言,當企業選擇內部情報方案時,模型推論週期將被整合至運算環境和現有商業軟體設置中進行管理。這對於運作於客戶端設備、網路、本地資料中心。或是像虛擬私有雲(VPC)等,在服務供應商設定環境的雲端運算週期的相對較小型模型(約300億參數或更少)、甚至是中型模型(500億至700億參數)是可行的解決方案。
大型語言模型如Llama 3.1 8B或類似的模型,可以在開發人員的本地電腦(Mac或PC)上運作,並透過使用量化等最佳化技術,在本地設置中實現所需的使用者體驗。而利用像是Ollama這樣的工具和框架,開發人員可以在本地管理推論執行。推論週期則可在企業資料中心內既有的GPU、Intel Xeon或Intel Gaudi AI加速器上運作。如果是在服務供應商端對模型進行推論,則會按照基礎設施即服務(IaaS)的企業自有設定和執行選項被收費。
當推論執行是在企業運算環境如客戶端、邊緣、本地或IaaS中完成時,若超出對現有硬體增加工作負載的範圍,對運算設備所有權的資本支出(CapEx)需求將更高。OpEx 和CapEx之間的比較很複雜,取決於許多變數,但當部署需求廣泛、持續且須穩定使用時,CapEx更被看重。這點尤其重要,因為較小的模型和最佳化技術允許在主流裝置、處理器,甚至是本地筆記型電腦/桌上型電腦上運作先進的開源模型。
在企業運算環境中執行推論,可以更嚴密控管安全和隱私等層面,透過減少資料移動及暴露,有助於保護隱私。此外,運作於本地環境、以檢索為基礎的AI解決方案,能透過提供由使用者控制的資訊存取權限,以支援精密的控管以因應潛在隱私問題。安全性經常被視為企業部署GenAI的首要考量之一,而機密運算(Confidential Computing) 是主要需求。機密運算是透過在受驗證、以硬體為基礎的可信賴執行環境(Trusted Execution Environment, TEE)中進行運算,來保護使用中的資料。
較小型、開源的模型可以在企業最安全的應用程式設定中運作,例如運作於Xeon處理器的模型可完全在TEE中執行,且僅產生有限的負擔。如圖8所示,未經運算的加密資料仍受到保護,模型會透過來源和完整性檢查防範篡改,實際執行過程受到資安保護,不受到任何漏洞侵害,包括來自作業系統或其他應用程式的威脅,防止未經授權的實體進行查看或更改(圖8)。
生成即服務雲端執行/託管執行環境
GenAI是一項革命性性技術,目前正被各種產業領域內的多數企業積極評估或採用。當AI開發人員考量最佳解決方案選項時,最需要解決的重要問題之一,是該使用外部專用模型還是依賴開源生態系。一種選項是仰賴大型專用的黑箱GaaS解決方案,例如利用RAG的GPT-4o或Gemini Ultra。另一種選項則是採用更具適應性和整合性的方法,較小型、根據需求從大型開源模型池中篩選及交換、主要利用企業資訊、根據特定需求客製化和最佳化,可在企業現有基礎設施內執行的模型。如同前面所述,這兩種基本策略可以組合使用。
隨著眾多AI解決方案開發人員面臨這種基本的兩難困境時,多數人在經過一個學習階段後,最終都會選擇將開源GenAI模型納入其內部運算環境、資料和商業設置中。他們將藉由開源與廣泛生態系良性循環所帶來的進步,推動AI創新,同時維持對成本及未來發展路徑的掌控。
企業也可以將解決AI開發人員難題的權力,交給AI做最後決定。在一場分階段的AI辯論中,OpenAI的GPT-4與Microsoft的開源Orca 2 13B,針對在未來發展中使用專用還是開源GenAI的優劣勢展開辯論。在GPT-4 Turbo的裁判下,開源GenAI在辯論中取得勝利,Orca 2贏在呼籲應推動未來AI的開發更加分散、開放、協作,並運用全世界人才實現集體進步。這種模式可望加速創新、使AI的使用更為普及,並透過社群治理確保實踐的道德性和透明度。
(本文作者為英特爾實驗室副總裁暨新興AI研究總監)
開源/專用AI模型各擅勝場 生態系優勢旗鼓相當(3)